查看原文
其他

DevSecOps:开启混乱纪元

波太金 共识粉碎机 2023-05-16

文:小熊猫

编:波太金

Monitor是过去几年上升最快的云概念,他像一管粘合剂,开始用Ops的产品,将Dev和Sec慢慢绑在一起,从这刻起DevSecOps才算有了雏形。

Monitor也可能是云行业里最拥挤的赛道,从物理机时代的IBM、BMC,到APP时代的NewRelic、Dynatrace、AppDynamics,再到云原生和容器时代异军突起的Datadog。

这个领域还在不断涌入创业公司,他们有的打着开源大旗,有的绑定生态伙伴。而Splunk、Elastic、ServiceNow这些跨领域的竞争对手,也将Monitor作为他们垂涎的新业务。

1 属于DDOG的三年


Datadog自2019年上市,就是一个不断创造神奇的公司。从基础设施监控,顺利跨越到APM,再完善Log产品成为了一体化平台,Datadog拥有监控领域里最丰富的工具箱

毫不夸张的说,Datadog在SaaS成长投资者心中,就是最漂亮的几道白月光,在熊市里也拥有最多的拥趸。

Monitor领域一般分为Infra(基础设施监控)和APM(应用程序监控)。第一代的云时代Monitor公司,都是从APM起家。相比当时的Infra,APM有更复杂的Metrics和Know-how,适逢2010年开启的APP时代,NewRelic作为当时的时代弄潮儿,成为了Monitor的代表。

APM公司们没有将Infra当成最重要的发力领域,NewRelic到2015年底收购Opsmatic才算是正式补充其Infra产品,而到了2019年底打磨出初步的NewRelicOne平台,才真正有了成熟的Infra产品。

容器化浪潮改变了监控主要是APM的这一风向。2017年是容器化开始高速发展的一年,Infra监控从此变得更加复杂,更加需要适应敏捷开发。要监控的对象从个位数到上百、上千、对于监控工具的需求陡增。

Datadog也是从这一年开始高速发展,他是最早支持容器化的监控厂商。容器化浪潮让Infra监控从一个不好赚钱的小领域,迅速变成了一个大部分企业都需要的大领域,而迭代速度快、Dashborad好用、价格便宜的Datadog,迅速成为了云原生Infra监控的事实标准。

Datadog除了容器化外,最让人称赞的就是数据展现,他摆脱了过去竞争对手(主要是针对大客户和业务较为传统客户)一定要给出Know-how的解决方案做法。让采集数据的Agent做到了非常细致的颗粒度,结合Dashboard和丰富的工具集,很方便地满足了运维工程师的DIY需求(尤其是科技企业的运维工程师自身水平比较高,对于单纯工具的诉求更大)。Datadog客户在谈到Datadog与其他公司的区别时,称赞最多的就是更加灵活的Dashboard。

而让Datadog正式成为一家创造神奇公司的是他的APM产品。相比Infra,APM更加百花齐放。就像微信、淘宝、抖音在APM上就会有很多截然不同的要求,APM的Know-how也更加分散,需要更多的Use Case。
而Datadog很快又抓住了竞争者们的痛点:
  • 以NewRelic为代表的中小客户提供商,产品太贵了
  • 如果主攻中小客户,简化接入、简化操作和优化可视化,可以弥补在Know-how上的缺点,中小客户问题没那么复杂,靠工具集就能DIY出方案
  • Infra和APM都是IT团队在用,一个团队如果能有一个统一的Dashboard解决问题更方便
Datadog在收购Ozcode后,以近乎NewRelic1/3-1/2的价格推出了APM产品。而凭借APM产品的增量,Datadog也在20年底正式追上NewRelic和Dynatrace,成为Monitor行业的一哥。

这不仅仅靠的是Datadog的价格优势和数据呈现能力,更令人佩服的是Datadog的快速迭代能力。在提供完备的工具集后,Datadog用了1~2年时间,快速补齐了他在腰部客户的Know-how差距。很多渠道商都反映,20年的Datadog在APM里面胜率还远远低于NewRelic和Dynatrace,但到了21年中开始,胜率就迅速提高,到年底就和NewRelic差不多了。而到了22年,Datadog的APM收入已经超过了NewRelic APM收入的60%,但离专做大客户的Dynatrace仍然有很大差距。

2 一体化平台需要Log


当Datadog拥有Infra和APM产品时,他已经是一个平台了,IT团队可以在Datadog里同时解决Server和APP的问题。也很自然地拓展到了Log产品。

Monitor产品可以想象成上下两个部分,下面是一个数据底座,通过Agent做Tracing,收集数据。上面是应用层,对数据进行梳理和展现,最后结合Know-how给出查错的解决方案。而在上下两部分之间,就是Log层,数据底座的数据进入Log沉淀,然后再从Log Deliver给应用层。

在Datadog的一体化故事中,一个典型的客户通过Infra产品发现服务器过载,然后结合APM产品里面去定位用户行为,最后跳转到Log产品中寻找细节。一气呵成。

而相比Monitor行业,Log也是个更大的池子,Log行业的TAM相当于Infra和APM的加总。为了继续拓展这个一体化故事,打下Log是Datadog必须要做的。

Datadog17年收购Logmatic.io,并基于Logmatic的产品于2019年推出了Log产品(Logmatic是基于ElasticSearch,相当于开源Elastic的魔改)。

彼时,行业里面Log的老大是Splunk,主攻大客户。天下苦其价格贵久矣。于是Datadog抡起了过去的三板斧,便宜、好部署、一体化。提刀嗷嗷切向了Splunk。Splunk的客户一直在抱怨按照数据量收费的模式太贵了,而Datadog的新产品看起来要便宜得多。

Splunk的收费价格及模式(20年左右):合$600-1800/100GB/year(包含了后续retention的费用)。

而同期Datadog Log Management的价格, 起步合$1.2/GB/year(retention费用另算,但是不是按全量数据,而是需要存储的log events,量小,价格是$15.24/million log/year)。

科技公司成为第一批采用Datadog Log产品的客户,在Datadog的大客户中已经出现了Log预算超过Infra和APM的情形。而且比起Infra和APM,Log起量更加迅速。By Ingest Data的形式,虽然看起来单价便宜,但程序员用起来经常不做节制,这使得也出现了客户开始抱怨Datadog让他们的实际成本远远超过了之前的计划。


3 Monitor vs Log:决战自动化


不光是Datadog,NewRelic和Dynatrace也推出了自己的Log产品,并且都打包成了一体化平台,但体量比起Datadog还小。

从客户反馈上看,采用Datadog Log产品的客户,主要关注点都在价格上。很少有聚焦到“Infra→APM→Log”Solution的便捷性上的。

从根源上看,可能也取决于过去的Log厂商和Infra/APM厂商一直就是这么配合的,Log是个被高度Integration的产品,已经有了很多被做入Solution的经验。

同时也很少看到客户聚焦到Log的性能,这可能是因为采用Datadog Log产品的客户,Log的数据量本身就没到性能瓶颈。

而评价一个Log产品的好坏有两个点:Search性能,稳定性。

早年Splunk在为自身产品贵辩护的时候,就一直提到,相比行业内的主要竞争对手Elastic,Splunk在大数据量下有更快的速度和稳定性。而相对于魔改Elastic的Datadog们,Splunk无疑也有更好的性能。

但是后续该领域自动化的提升,会对底层架构产生更高的要求。

16年Gartner 提出了运维自动化的概念,将整个运维环节冠通并且通过AI的能力提升整体流程的自动化程度。
这种趋势的原因在于:
  • 人力短缺:下图为SRE(Site Reliability Engineer)的Job Openings的情况,这些年呈现较为迅猛的增长。同期薪水也呈现显著的上升。这意味着,在处理相关问题时候,需要更多的、且更贵的人

  • 同时每个运维人员需要监控的指标也在上升。不断增长的custum metrics 成为了监控厂商一个好的收费来源可以很好地说明这一点
  • 加上人凭借经验对指标的判断是个不标准的事情。这些都会导致运维后链路的处理会走向更加自动化

自动化对Data Infra的要求更高。机器处理event的方式是靠更多的数据和关联性(相比人更多的计算)来套pattern以定位问题和找到对应的解决方案的。执行效率高,但是一定比人的查询和计算的操作有更多的冗余。以国内某家中小银行的案例来看,上了运维自动化平台后进入的数据量从原来的1T到10T/day。同时伴随的运算较人工大幅上升。那么对于底层的数据平台的能力要求是必是更高的。

但目前来看大部分的客户Log数据都还没量大到触发性能瓶颈。性能的优势在非自动化的场景下不好体现,但在自动化场景中会更加重要:

  • 从发现问题到解决问题平均需要7个小时,中间除了Monitor和Log产品的运行,还需要结合IT运营的经验智慧。因为融入了人的因素,所以中间会有很多时间停顿。

  • 在未来的自动化假设中,更多的停顿会被缩小,大部分的Query自动化进行,更快的性能和稳定性意味着更快的解决速度,性能会逐渐体现Log厂商之间的差距。

  • 另一方面,Log的数据增长速度要比数据大盘增长更快,未来几年也会有更多客户进入log的性能瓶颈

log数据在迅猛的增长,根据一份调研(Devops.com, 2021):
根据调研:94%的公司每天至少摄取1TB或更多的数据,18%的公司在10TB以上的范围。考虑到这一点--这些公司的平均每日摄取量为7.9TB。而尽管每天看上去摄取大量的数据,但目前只有28%的受访者在捕获80%以上的日志数据。而78%的人认为,捕获80%以上的日志数据是最理想的。这里仍然存在一个很大的差距。

再考虑后续的使用率的上升,对于log本身平台的弹性和数据处理能力的要求要进一步提升。

进入自动化时代后,能够进行Log底层架构的厂商们反而会体现出他们原来的性能优势。

当然作为对应,Datadog们还有另一张牌,Log的数据最后还是需要为应用层(Infra和APM)解决问题而服务,而Datadog们的应用层产品有更丰富的Know-how,即便是更多的自动化,在最终的解决问题的角度,依赖这些Know-how也可以提供更贴合场景的问题解决方案。

Log厂商们也在迅速补齐这一点,在Log行业里以贵著称的Splunk,在收购SignalFX后,却向Monitor行业打出了产品最低价,他们的产品甚至可以在Datadog的基础上再打对折。

在容器化革命浪潮走完后,看上去Monitor产品已很难再拉出代际优势了。很有可能最终Datadog们的Monitor产品和Splunk们的Monitor产品更多是1-2年的时间差距,很难谈得上大的技术变革。而到了更加底层的Log业务,底层数据架构性能改善将会是一个更加长期的事情。

4 Monitor vs Sec:难啃的骨头


Datadog的野心不至于Log,还要沿着Log进入下一步的安全领域,它同时也推出了SIEM和部分Cloud Security产品。

Datadog进入安全的逻辑是,Log产品推出后他有了数据,那解决了SIEM数据源的很大一部分,上面架上平台,就可以提供SIEM。同时数据又是云相关的,进一步提炼,又可以去做Cloud Security。

Datadog的SIEM产品推出后很快恰逢一次Neo4J危机,没有购买SIEM/云安全产品的公司为了迅速补上漏洞,成为了Datadog SIEM的第一批客户。

但Neo4J更多是一次性帮助,很难帮Datadog的产品走远。相比Log产品,做安全的难度要大的多。

SIEM比起APM的Know-how更加复杂:

  • 从Log延伸去做SIEM的Splunk,积累了大量的对于安全问题判定的模板和后续处理的脚本,这些比Datadog过去从Infra去APM要更复杂

  • Infra和APM都是收集数据后呈现数据,客户暂时可以容忍大量的报警(但其实在大客户里面也是要求精确和收敛)。在SIEM,目前的报警量已经超过了安全人员的工作负荷,对于危险性的判定的归类和准确性要求更高(不然就没有XDR什么事儿了)

  • Infra和APM都是IT团队在用,但是毕竟也只是IT运维团队内部家内事儿。虽然已经有IT和安全打通组织的趋势(比如DevSecOps),但安全和IT运维的团队技能上的差异性,造成一体化平台的推进难度更大。

可以想象,Datadog在SIEM中的进展会比Log要慢得多,遇到的质疑也会大得多。

这里可以看下安全里面相关的竞争对手Crowdstrike的情况。

CrowdStrike的方案有很明显的网络优势

  • 客户联网,客户遇到的安全威胁,会上报给CrowdStrike,CrowdStrike形成解决方案后会发给所有客户(网络效应)

  • 而安全业务也需要更多的专业研发积累,威胁情报的积累更要比APM的积累要困难得多(威胁情报整理挖掘的专业人员相比具有相关运维经验的IT人员来说更为短缺)

Datadog的Cloud Security如果还是主要发挥在传统艺能,即呈现数据再进行报警的程度,距离CrowdStrike的方案仍然有非常大的距离,而且在积累上也很难拉近距离。

Datadog 方案

Crowdstrike 方案

Crowdstrike 从endpoint出发,结合威胁情报网络,已经形成了全面的网络安全平台。可视化(目前Datadog在安全上的主要实现)是较为基础的能力。安全这里核心问题还是能够更加精准的发现问题和处理问题。从目前主要平台的报警量(万以上/day)vs 人工处理量(数十-百/day)来看,已经脱离了简单的可视化而是向着提升准确性和自动化处理能力是主要发展趋势。从具体产品来看,从EDR、NTA、SIEM/SOC 到XDR、SOAR的发展趋势也较为明显的产品演进。显然Datadog们在安全领域所处的阶段还尚且较为早期,需要有很多工作要做。

除开Datadog们的动作,安全厂商在进入Ops领域也有很大的热情。CrowdStrike在去年收购了Log厂商Humio,Humio的性能估计和Datadog们的log差别也不是明显的代际的差别,有了Log平台后,安全厂商们也能更完整的补齐他们的SIEM能力

进入Log后,安全厂商会考虑进入Moniotor吗?看起来好像难度也很大(主要是商业上的推广)。


5 兔子急了也会咬人


如果说Datadog的迅速崛起,是得益于容器化浪潮+快速迭代的执行力/狠劲儿。那站在现在这个时间点上往后看,很难再看到有利于Datadog的技术浪潮了,更多只能指望公司的执行力。

回顾刚刚的Infra、APM和Log,不难会发现,这个领域最后所有公司都变成了一体化平台,他们都活成了对方的样子,变得越来越像。

而变得越来越像的原因,也是这个行业要的就是产品的快速迭代,产品本身没有什么技术壁垒。所以我们不难看到Datadog每年都会发布新模块,而他的竞对NewRelic和Dynatrace似乎也没落下。

当所有玩家都越来越像,谁都拉不开代际差别,更多是1年甚至半年的时间优势的时候。在本就一年一签合同的SaaS行业,各家的差距也会缩小。

难免会出现弱势的兔子们想通过产品改革或者降价,来稳住份额,或者去抢占份额。第一只兔子就是曾经的APM一哥NewRelic。

NewRelic在被Datadog狠打的时间里,增速不断下滑,管理层也经历了多次动荡,CEO/总裁也换了2次。最终痛定思痛,挥刀自宫:

  • NewRelic做了大幅度的产品重组,将APM、Infra、Log像Datadog一样,整合成了一体化平台NewRelic One

  • 在价格上也做了大幅调整,走向按需付费,定价从Datadog的一倍,变成了只要Datadog的70%

在这一轮大改革后,NewRelic一度利润率从10%跌到了-10%,但经历了阵痛的改革,最终增速恢复到了接近20%。而过去从NewRelic切换到Datadog的客户中,也开始考虑在下一次续签的时候重新考虑NewRelic。更加有意思的是,不少客户在从NewRelic换去Datadog的时候痛点主要是贵+Dashboard,而当NewRelic降价和改版后,很少讨论Dashboard了,更多的讨论点都聚焦在价格上。

当这个行业里的产品们越来越像的时候,很难说不会再有下一个NewRelic。它很可能是Dynatrace,也很可能是Splunk。

就像Splunk在收购SignalFX后,去Monitor行业开打价格战一样,一旦Splunk在Log主战场感到威胁难以忍受,也可能像NewRelic一样切换定价模式。

6 开源浪潮下的众生相


Elastic是世界上最成功的开源项目之一。在这个行业里也有更多的后辈开源项目正在冒出来。

Grafana是其中最成功的一位。

很多开发者和投资人对Grafana的固有印象是一个应用层的Dashboard工具,它类似于Elastic的Kibana,或者说是更像集合了Know-how经验的Tableau。适合小创业公司DIY需求,但到了腰部公司就很难使用了。

但Grafana的进步非常快,商业版的Grafana已经有了很好的Agent,他也可以继续与Prometheus配合。而从22年开始,Grafana也正式下场Infra与Datadog正面PK

Grafana在今年底很可能就有超过200 mn ARR,去年就已经估值30亿美金,这基本是NewRelic的市值。

相比产品化的竞争对手们,Grafana有很好的进攻位置。开源的定位,让他可以成为所有Monitor产品的应用上层,他可以接入AWS/Azure/GCP自家的Moniotor产品,也可以接入Datadog/Dynatrace/NewRelic的数据(如果他们愿意集成的话)。

相比Datadog是AWS CloudWatch的敌人,Grafana可能更有机会成为AWS CloudWatch的朋友。

OpenTelemetry是另一个大趋势。

客户苦数据格式已久,不同的Monitor产品抓出来不同的格式,这使得Monitor产品间很难互通。

去年初OpenTelemetry协议成立,1.0版本旨在使得客户在Collect数据时候对齐Format,而更加激进的2.0版本使得希望客户愿意Delivery他们的数据给加入协议的所有厂商。

NewRelic这样的落后者,成为拥护OpenTelemetry2.0的坚定支持者。而更希望讲一个封闭体系故事的Datadog目前还没有接受OpenTelemetry2.0

如果OpenTelemetry的生态做得好的话,Grafana也会成为最受益的厂商,可以帮助其补全Agent的短板。

而不希望被一体化平台绑定的大客户,也可以更方便地运行多个Monitor平台。


7 螳螂捕蝉,黄雀在后


除了DevSecOps的厂商,Data的双子星Snowflake与Databricks也在尝试进入Monitor、Log和SIEM行业。
这里面进度最快的是最擅长搞生态的Snowflake。

Log数据不一定非得存在Log产品中,本质上更多还是一种结构化/半结构化数据为主的数据结合,那么他们就可以以结构化/半结构化数据的形式存在Snowflake与Databricks中。

如果客户最后需要的是一个能够管理自身各种数据的一体化的数据平台,希望通过减少数据副本和ETL完成,数据应用所需要的数据处理,那自然也可以选择Snowflake与Databricks及其上的Monitor、Log、SIEM产品。

而且Snowflake/Databricks这种存、算分离的平台有较好的经济性,相同花费下可以将数据保存的时间延长,对于进行监控、安全问题的回溯等具有较大的好处。

而相比其他Monitor、Log、SIEM厂商,这些Snowflake原生厂商可以把精力都投入到应用层上,他们不需要再魔改ESTC了,所以计算和存储的工作都可以交给Snowflake去优化

Snowflake的天使投资人Sutter Hill,在帮助创立Snowflake后,也同时深度参与了另外两家公司Observe和Lacework。

其中Observe与Snowflake的绑定最为彻底,作为一家Monitor公司他基本所有的Workload都native的长在Snowflake之上。

Observe的创始人上周发布了Twitter,Observe一天要贡献40mn的Snowflake Query,这占到了Snowflake一天Query量的2%。而在5月份Observe上一轮公告时提到的每天Query量的25mn,这意味着Observe的同比增速可能接近了150%。

而2%的Snowflake Query量不是个小数字,按照Snowflake目前的产品收入来看,如果Observe的每单Query成本和Snowflake的平均单价一样,Observe给Snowflake贡献的Runrate ARR就已经达到了37mn。

考虑到Observe是Snowflake上的原生应用,他只收取产品费用,计算和存储的费用由客户与Snowflake单独结算。但如果换算到Datadog的收入口径,Observe也很可能已经达到了80Mn的ARR,并且在年底很可能迈过100mn ARR。

另一家Sutter Hill孵化的公司Lacework是一个典型的安全例子,Lacework的估值也已经到了80亿美金。

Lacework于2016年开始使用Snowflake作为数据层的技术提供方,这得益于Snowflake开始具有Json处理能力,并且存算分离的可拓展性也更加便捷。

从上图架构可以看出,在将数据层托管给Snowflake后,Lacework可以专心去完成应用层和对应的接口适配。

对于用户来说(公有云),也较为接受这种模式,可以看到通过Lacework导致的Snowflake的用量的上升也非常的显著:

除了Sutter Hill孵化的两家兄弟公司,另一家与Lacework估值相近的SIEM公司Securonix也与Snowflake深度整合,搭建在Snowflake的Datalake上,并成为了今年Snowflake Summit中第一个出来站台的Speaker。

相比DevSecOps之间的乱战,在Data向三家领域进攻的同时,他们基本无法染指Data的领域。无论是Snowflake和Databricks的产品壁垒,都让DevOpsSec的厂商在很长的时间维度都不会有进入机会。

或许以后我们可以叫做DevSecOpsData,或者其实都是Data+Application。


8 开启混乱纪元


DevSecOps的混战才刚刚开始。相信Datadog异军突起的三年之后,会进入更残酷的产品竞争。

相比在ITSM一统千秋的ServiceNow,DevSecOps里出现ServiceNow的概率小之又小。这些公司都走在Cloud Native的大道上,而ServiceNow的成功建立在为客户输出Solution和流程管理,它更像ERP,而不是给程序员使用的Monitor工具。

ServiceNow的品牌很重要,流程管理经验也很重要。但到了工具层面就会不断出现对比,对比就意味着竞争。

拥有最强执行力的Datadog还是整合行业的那一个吗?还是这个行业最后都会变成NewRelic一样的企业?




小熊猫老师加入公众号写作的第一篇文章,欢迎对SaaS感兴趣的朋友私聊小熊猫老师。


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存